概率与统计：不确定性的科学：从概率到似然：推断的科学

统计推断标志着从基于已知参数（概率）预测结果，转向确定哪些参数最符合观测数据（似然）。当概率密度函数 $f(x|\theta)$ 描述固定 $\theta$ 时数据 $x$ 的分布时，似然函数 $L(\theta|x)$ 则将观测数据视为固定，通过变化参数 $\theta$ 来量化不同假设的相对支持程度。

反演原理

似然函数通常以联合密度的形式表示。对于方差固定的正态分布，似然函数定义为：

$L ( \theta | x_1, \dots, x_n ) = \exp\left( -\frac{n}{2\sigma_0^2} (\bar{x} - \theta)^2 \right)$

此处，我们根据样本均值 $\bar{x}$ 评估不同 $\theta$ 值的“合理性”。为找到这一合理性的峰值，我们使用 定义 6.2.2: 对数似然 $l(\theta | s) = \ln L(\theta | s)$。此变换将独立观测值乘积转化为求和，使复杂模型的最大化在计算上成为可能。

实例分析：身高调查（示例 6.3.5）

数据

考虑一个包含 $n=30$ 个身高的样本，其计算得出的标准差为 $s=2.379$。利用位置-尺度正态模型，我们试图推断真实均值 $\theta$。

推断与精度

标准误计算为 $s/\sqrt{30} = 0.43434$。该值衡量了似然峰的“尖锐度”。标准误越小，峰越窄越尖锐，表明对 $\theta$ 的推断精度越高。

维度与约束

在如 示例 6.1.5（多项式模型）等复杂情形中，我们必须考虑逻辑依赖关系。正如所指出的：“请注意，它实际上只有二维，因为一旦我们知道任意两个 $\theta_i$ 的值……我们就立即知道了剩余参数的值。” 这一约束对于正确定义参数空间 $\Omega$ 至关重要。

渐近基础

从似然到推断的桥梁依赖于中心极限定理。当 $n \to \infty$ 时，我们的估计量的分布趋于收敛。具体而言，在 示例 6.5.4 伯努利模型：

$Z = \frac{\sqrt{n}(\bar{X} - \theta)}{\sqrt{\bar{X}(1 - \bar{X})}} \xrightarrow{D} N(0, 1)$

只要样本量足够大，这使得我们能够使用 z 区间和 p 值来量化不确定性。

🎯 核心原则

非参数推断方法仅需对抽样分布做出最少假设，因此当参数族 $\{P_{\theta} : \theta \in \Omega\}$ 极其庞大时仍具有鲁棒性。相比之下，参数似然方法依赖于对数似然的曲率，其中费雪信息量 $nI(\theta)$ 决定了我们得分函数的方差。

问题 1

6.1.2：假设自杀率按每人每年 $p$ 计算（泊松分布 $Poisson(Np)$）。若在 $N=30,345$ 人年中观察到 22 起自杀事件，那么对数似然函数 $l(p)$ 是什么？

$l(p) = -30345p + 22\ln(p) + C$

$l(p) = 30345\ln(p) - 22p + C$

$l(p) = e^{-30345p} p^{22}$

$l(p) = -22p + 30345\ln(p)$

问题 2

6.3.14：$\psi(\theta)$ 的 95% 置信区间为 $(1.23, 2.45)$。是否有证据反对 $H_0 : \psi(\theta) = 2$？

没有，因为 2 在区间内。

是的，因为 2 不是区间的中心。

是的，在 $\alpha=0.01$ 水平下。

信息不足，无法得出结论。

问题 3

验证 $N(\mu, \sigma^2)$ 的三阶矩。哪个表达式代表 $\mu_3 = E_{\theta}(X^3)$？

$\mu^3 + 3\mu\sigma^2$

$\mu^3 + \sigma^3$

$3\mu^2\sigma + \mu^3$

$\mu^3 + 3\sigma^2$

问题 4

6.5.1：若 $x_1, \dots, x_n \sim N(\mu_0, \sigma^2)$ 且 $\mu_0$ 已知，那么费雪信息量 $I(\sigma^2)$ 是多少？

$1 / (2\sigma^4)$

$1 / \sigma^2$

$n / (2\sigma^2)$

$2\sigma^4$

问题 5

在 $k$ 类多项式模型（示例 6.1.5）中，参数空间的有效维度是多少？

$k - 1$

$k$

$k^2$

$1$